对抗性机器学习 (ML) 的最新研究工作已经调查了问题空间攻击,重点关注在与图像不同、没有明确的特征空间逆映射的领域(例如软件)中生成真实的规避对象。然而,问题空间攻击的设计、比较和现实影响仍未得到充分探索。本文做出了三个主要贡献。首先,我们提出了问题空间中对抗性 ML 规避攻击的一般形式化,其中包括对可用转换、保留语义、缺失伪影和合理性的全面约束集的定义。我们阐明了特征空间和问题空间之间的关系,并引入了副作用特征的概念作为逆特征映射问题的副产品。这使我们能够定义并证明问题空间攻击存在的必要和充分条件。其次,基于我们的一般形式化,我们提出了一种针对 Android 恶意软件的新型问题空间攻击,该攻击克服了过去在语义和伪影方面的限制。我们已经在包含 2016 年和 2018 年的 15 万个 Android 应用程序的数据集上测试了我们的方法,结果表明逃避最先进的恶意软件分类器及其强化版本的实际可行性。第三,我们探索对抗性训练作为一种可能方法来增强对抗性样本的鲁棒性的有效性,评估其在不同场景下对所考虑的机器学习模型的有效性。我们的结果表明,“对抗性恶意软件即服务”是一种现实威胁,因为我们会自动大规模生成数千个真实且不显眼的对抗性应用程序,平均只需几分钟即可生成一个对抗性实例。
主要关键词